iT邦幫忙

2025 iThome 鐵人賽

DAY 8
1

▋前言


除了逐字稿與講者標註,另一個重要維度是「學生情緒」。在課堂中,老師能從表情、動作感受到學生反應;在只有語音的情況下則需要 AI 來幫忙做語音情緒辨識 (Speech Emotion Recognition, SER)。
https://ithelp.ithome.com.tw/upload/images/20250921/20169058K5N74Eu7zJ.png

▋內容


我們的設計思路是

  1. 特徵提取:使用 Wav2Vec 從原始音訊 waveform 學習上下文特徵。

  2. 情緒分類:在 SpeechBrain 中搭建分類器,將輸入音訊標記為 快樂、悲傷、生氣、中性 等情緒。

  3. 片段分析:為了避免整段平均導致情緒訊號被沖淡,我們選擇 逐片段分析,並繪製時間序列曲線。

挑戰與限制

  1. 情緒標註本質上主觀,不同標註者可能給不同標籤。

  2. 相同的文字,不同語調會導致完全不同的情緒判斷。

即便如此,SER 仍然能提供有價值的參考。例如:課堂前 10 分鐘專注度高,後段開始出現困惑與分心,幫助老師回顧教學節奏。

▋下回預告


下一篇將整合四大模組,介紹我們的 系統架構與資料管線(data pipeline)。

▋參考資料


SpeechBrain
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings
圖片源自競賽成果簡報


上一篇
Day 7 模組三:講者辨識 (Speaker Recognition, SR)
下一篇
Day 9 系統架構設計與資料管線
系列文
AI語音辨識系統:結合聲紋分析與情緒識別23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言